In dieser Lerneinheit geht es abschließend um das Thema Big Data, also um die Verarbeitung und Nutzung extrem großer Datenmengen. Der Begriff „Big Data“ begegnet uns heute in vielen Zusammenhängen, ob in der Wirtschaft, der Forschung oder im Alltag. Ziel ist es, zu verstehen, was Big Data eigentlich bedeutet, welche technischen Grundlagen dahinterstecken und wo Chancen und Risiken liegen. Big Data beschreibt Datenmengen, die so groß, so komplex, so schnelllebig oder so wenig strukturiert sind, dass sie mit herkömmlichen Methoden nicht mehr sinnvoll verarbeitet werden können. Diese Daten können nicht einfach manuell ausgewertet werden, und auch klassische Datenbanksysteme stoßen schnell an ihre Grenzen. Im deutschsprachigen Raum spricht man oft auch von Massendaten. Wichtig ist: Es geht nicht nur um die Größe, sondern auch um die Eigenschaften dieser Daten. Big Data lässt sich gut mit dem sogenannten Fünf-V-Modell beschreiben. Das erste V steht für Volume, also das große Volumen an Daten. Das zweite V bedeutet Velocity, die Geschwindigkeit, mit der Daten entstehen und verarbeitet werden. Das dritte V steht für Variety, die Vielfalt an Formaten und Quellen. Hinzu kommen Value, der Wert, den man aus den Daten ziehen kann, und Validity, also die Gültigkeit und Qualität der Daten. Diese fünf Begriffe helfen dabei, Big Data besser einzuordnen. Die Daten, die im Rahmen von Big Data gesammelt und analysiert werden, stammen aus einer Vielzahl unterschiedlicher Quellen. Dazu gehören unter anderem Überwachungssysteme, zum Beispiel Kameras oder Sensoren in öffentlichen und privaten Räumen, die kontinuierlich Daten aufzeichnen. Auch die Nutzung von Kunden- und Bankkarten erzeugt Daten, etwa zu Kaufverhalten, Ort und Zeitpunkt von Transaktionen. Besonders relevant sind elektronische Kommunikationsdaten, also alles, was bei der Nutzung von Smartphones, E-Mails oder Messengern entsteht. Dabei spielt nicht nur der Inhalt eine Rolle, sondern auch das Nutzungsverhalten, also wann, wie oft und in welchem Muster kommuniziert wird. Wearables, also tragbare Technologien wie Fitnessarmbänder oder Smartwatches, liefern kontinuierlich Daten über Bewegung, Gesundheit oder Schlafverhalten. Hinzu kommen Informationen aus sozialen Netzwerken, wie Beiträge, Likes oder Standortdaten. Auch Fahrzeuge, die mit dem Internet verbunden sind, also sogenannte vernetzte Autos, erzeugen laufend Daten über Fahrverhalten, Verkehr und technische Zustände. In Smart Homes erfassen vernetzte Geräte Daten über Licht, Temperatur oder Stromverbrauch. Und nicht zuletzt spielen auch Daten eine Rolle, die von Behörden und Unternehmen erhoben werden, etwa zu Bürgerverhalten, Wirtschaftsdaten oder internen Prozessen. All diese Quellen tragen zur riesigen Datenmenge bei, die Big Data ausmacht. Damit Big Data überhaupt genutzt werden kann, sind mehrere Schritte nötig und jeder dieser Schritte bringt eigene Herausforderungen mit sich. Der erste Schritt ist das Sammeln der Daten. Dabei geht es darum, Rohdaten aus verschiedensten Quellen zusammenzutragen. Diese können von Transaktionen stammen, von Log-Dateien auf Servern, von mobilen Geräten, Maschinen oder Sensoren. Gerade hier zeigt sich schon, wie vielfältig und unübersichtlich die Ursprungsdaten oft sind. Der zweite Schritt ist das Speichern. Eine Big-Data-Plattform muss in der Lage sein, diese riesigen Datenmengen nicht nur sicher und zuverlässig zu speichern, sondern auch flexibel und skalierbar zu verwalten. Das bedeutet: Je mehr Daten anfallen, desto mehr Speicherplatz und Rechenleistung muss automatisch bereitgestellt werden können. Zudem müssen die Daten langlebig gespeichert werden, das heißt sie sollen auch langfristig verfügbar bleiben. Der dritte Schritt besteht darin, die gesammelten Daten zu verarbeiten und zu analysieren. Hier werden die Rohdaten in ein nutzbares Format überführt. Das geschieht durch Sortieren, Filtern, Zusammenführen oder Aggregieren. Häufig kommen in diesem Schritt auch spezialisierte Algorithmen und Verfahren aus dem Bereich der künstlichen Intelligenz zum Einsatz, um Muster zu erkennen oder Vorhersagen zu ermöglichen. Erst wenn diese Schritte erfolgreich durchlaufen wurden, können aus den Daten sinnvolle Informationen gewonnen werden. Nachdem die Daten gesammelt, gespeichert und verarbeitet wurden, folgt der entscheidende Schritt: die Nutzung und Visualisierung der Ergebnisse. Denn Big Data ist kein Selbstzweck, das Ziel ist es, aus den riesigen Datenmengen nützliche Erkenntnisse zu gewinnen. Dabei geht es nicht nur um rein technische Auswertungen, sondern um sogenannte umsetzbare Erkenntnisse. Diese sollen Entscheidungsträgerinnen und Entscheidungsträgern helfen, fundierte und schnelle Entscheidungen zu treffen. Moderne Unternehmen setzen dabei häufig auf sogenannte Self-Service-Tools im Bereich Business Intelligence. Das bedeutet, dass auch Fachabteilungen ohne tiefes technisches Wissen eigene Datenanalysen durchführen können. Zusätzlich kommen flexible Visualisierungswerkzeuge zum Einsatz, mit denen die Ergebnisse in Form von Diagrammen, Heatmaps oder Dashboards dargestellt werden. So lassen sich auch komplexe Zusammenhänge schnell erfassen. Je nach Art der Analyse kann es darum gehen, aktuelle Trends zu erkennen, statistische Prognosen zu erstellen oder sogar Handlungsempfehlungen zu geben. In der Praxis kann das zum Beispiel bedeuten, dass ein Produktionsunternehmen auf Grundlage von Sensordaten eine Maschine rechtzeitig warten lässt, bevor ein Ausfall droht, oder dass ein Online-Shop seinen Kunden maßgeschneiderte Produktempfehlungen anbietet. Die Qualität dieser Nutzung hängt aber stark davon ab, wie gut die vorangegangenen Schritte, also Sammeln, Speichern und Verarbeiten, durchgeführt wurden. Big Data eröffnet viele Möglichkeiten, steht aber gleichzeitig auch in der Kritik. In den Massenmedien wird der Begriff häufig im Zusammenhang mit Überwachung genannt. So erfassen zum Beispiel Geheimdienste in vielen Ländern große Mengen an Kommunikationsdaten, oft ohne Wissen oder Zustimmung der Betroffenen. Auch Unternehmen nutzen Daten, etwa aus dem Internetverhalten oder von Kundenkarten, um Profile zu erstellen und gezielt Werbung zu schalten. Dabei kann es schnell zur Verletzung von Persönlichkeitsrechten kommen, wenn Nutzerinnen und Nutzer nicht mehr nachvollziehen können, welche Daten über sie gespeichert wurden oder wozu sie verwendet werden. Ein weiteres Problem liegt in der sogenannten Delokalisierung, also darin, dass Daten nicht mehr lokal gespeichert werden, sondern auf Servern irgendwo in der Cloud. Das macht es schwer, die Kontrolle über die eigenen Daten zu behalten. Gleichzeitig steckt hinter Big Data aber auch der Wunsch, aus vorhandenen Informationen einen echten Wettbewerbsvorteil zu erlangen. In der Industrie geschieht das zum Beispiel durch automatisierte Produktionsprozesse im Rahmen von Industrie 4.0 oder durch das sogenannte Internet der Dinge. Auch in der Werbung, in der Zusammenarbeit großer Teams oder im Personalbereich, etwa durch sogenannte People Analytics, spielt Big Data zunehmend eine Rolle. Die Herausforderung besteht darin, all diese Anwendungen verantwortungsvoll, transparent und im Sinne der Nutzerinnen und Nutzer zu gestalten. Wer sich tiefer mit Big Data beschäftigen möchte, kann im weiteren Verlauf des Studiums das Wahlfach "Big Data Engineering and Analysis" belegen.